Consumo de energía en Chicago en 2010

Alberto Ramos Sánchez

08/01/2021

Contenido

Dependencias

Exploración de los datos

Leemos de fichero los datos previamente preprocesados

El dataset contiene 72 columnas que contienen —además del consumo energético mensual— características de cada uno de los bloques censales de cada comunidad de Chicago.

Las columnas más importantes son:

Las demás columnas están descritas en: https://data.cityofchicago.org/Environment-Sustainable-Development/Energy-Usage-2010/8yq3-m6wp

Estudio de datos

La clase dataloader facilita la selección de datos no nulos del dataset. A través de las propiedades energy_cols y gas_cols podemos seleccionar todas las columnas que reflejan el consumo mensual de electricidad y gas, respectivamente.

Outliers

Energía

El siguiente boxplot muestra la existencia de outliers, que corresponden a comunidades con un alto consumo de electricidad.

Los valores más altos de consumo hacen notar que en los meses de vacaciones (navidades y verano) aumenta el consumo de energía. Aún así, según el valor medio se observa un crecimiento del consumo de energía. Sería interesante tener los datos de siguientes años para poder comprobar si esta tendencia continúa en los siguientes años.

Gas

Al igual que con la electricidad, el siguiente boxplot muestra la existencia de outliers, que corresponden a comunidades con un alto consumo de gas.

Los valores más altos de varianza reflejan la tendencia de uso que se podría esperar, que se utilice más el gas en épocas invernales. Aún así, el valor medio refleja justo lo opuesto, el consumo de gas tiende a aumentar.

Comunidades que existen

En el dataset se encuentran las 77 comunidades de Chicago.

Volver al inicio


Ensayos

Clustering de energía por tipo de zonas agrupando por ciudades

Se va a calcular el valor medio de consumo eléctrico por cada una de las comunidades y buscar las posibles agrupaciones de consumo para cada tipo de zona en la ciudad (comercial, industrial y residencial).

A continuación se calcula la media de consumo eléctrico para cada zona.

Comercial

Se seleccionan los valores medio de consumo para las zonas comerciales.

Aplicamos KMeans para varios valores de k y seleccionamos el punto codo en la gráfica de Elbow.

Seleccionamos el mejor resultado de clustering. El punto de codo está sobre k=4.

A continuación aplicamos CMeans.

Con Cmeans hemos obtenido una división de una muestra en un único clúster.

En la siguiente gráfica se muestran los 4 clústers obtenidos con KMeans. Loop se encuentra en un único clúster y su consumo medio es el más alto. Este resultado era de esperable pues es, junto a Near North Side y Near South Side, las comunidades centrales de Chicago.

La siguiente gráfica nos muestra la división de los clúster encontrados.

¿Que comunidades pertenecen a cada cluster?

Junto a Loop, Near North Side y Near South Side forman parte del centro de la ciudad de Chicago, por lo que era de esperar que estas ciudades se encontraran entre las de más consumo de energía, en los clúster 1 y 3.

Veamos los resultados de cmeans. Se obtiene dos clústeres, donde en uno hay una única muestra.

Residencial

A continuación se selecciona los valores medio de consumo por comunidad para las zonas tipo residencial.

Aplicamos KMeans

En este caso, el punto de codo se encuentra en k=4

En la siguientes gráfica podemos observar las tendencias de cada uno de los clústeres.

En el siguiente gráfico se muestra las muestras agrupadas en cada uno de los clústers.

¿Qué comunidad está en cada cluster?

Industrial

Seleccionamos el consumo medio por comunidad para las zonas industriales.

Con k=3 tendríamos una división óptima.

A continuación se muestran las gráficas de tendencias para cada clúster.

Se grafican las agrupaciones en clases para cada muestra.

¿Qué comunidad hay en cada clúster?

Volver al inicio


Clustering de gas por tipo de zonas agrupando por ciudades

Se va a calcular el valor medio de consumo de gas por cada una de las comunidades y buscar las posibles agrupaciones de consumo para cada tipo de zona en la ciudad (comercial, industrial y residencial).

A continuación se calcula la media de consumo de gas para cada zona.

Comercial

Se seleccionan las muestras de consumo medio para las zonas comerciales de cada comunidad.

Con K=4 seleccionamos la mejor división.

¿Qué comunidades hay en cada clúster?

Residencial

Se seleccionan las muestras de consumo medio para las zonas residenciales de cada comunidad.

Con k=4 tenemos la división óptima.

Industrial

Se seleccionan las muestras de consumo medio para las zonas industriales de cada comunidad.

En k=5 tenemos el punto codo, por lo que seleccionamos ese número de clústeres.

Volver al inicio


Clustering de energía para cada comunidad observando patrones para cada bloque

En este caso seleccionaremos la comunidad con más consumo para cada tipo encontrada anteriormente, y estudiaremos los patrones de consumo entre todos los bloques de dicha comunidad para cada tipo de comunidad (industrial, comercial y residencial).

Comercial

La comunidad Loop es la que más electricidad consumió, por lo que seleccionamos dicha comunidad.

Con k=3 tenemos una división óptima.

Residencial

En las zonas residenciales, Loop también fue la que más consumió.

Seleccionaremos K=3.

Industrial

En el caso de las zonas industriales, Near West Side fue una de las que más consumió electricidad.

Existen pocas muestras para aplicar clustering, por lo que mostramos cada una de las gráficas directamente.

Volver al inicio


Clustering de gas para cada comunidad observando patrones en cada bloque

Igual que en el caso anterior, seleccionaremos la comunidad con más consumo para cada tipo encontrada, y estudiaremos los patrones de consumo entre todos los bloques de dicha comunidad para cada tipo de comunidad (industrial, comercial y residencial).

Comercial

Entre las zonas comerciales, seleccionamos a Loop.

Industrial

En este caso, la zona industrial con mayor consumo de gas es Ashburn

Al ser una única muestra, graficamos el resultado directamente.

Residencial

Entre las zonas residenciales elegimos a Loop.

Volver al inicio


Clustering de energia por media consumida en cada contador por comunidad

En este caso vamos a calcular el promedio consumido por cada contador en cada comunidad, dividiendo el consumo por la columna ELECTRICITY ACCOUNTS.

Dividimos el consumo mensual de energía por el número de contadores.

Y posteriormente calculamos la media para cada comunidad.

Aplicamos clustering con KMeans

Con k=4 tenemos la división óptima.

¿Qué comunidad hay en cada clúster?

Separación por cuartiles

Vamos a separar las muestras muy alejadas del valor medio mediante la eliminación de outliers. Dividiremos en 3 porciones: los que están muy por abajo de la media, en mean_q1; los que están muy por encima de la media, en mean_q4; y los que se encuentran sobre la media, en mean_qm. Con este tratamiento previo trataremos de encontrar de mejor modo patrones dentro de cada grupo.

Aplicamos clustering a los valores en mean_qm.

Aplicamos clustering a los valores en mean_q1.

Aplicamos clustering a los valores en mean_q4.

Volver al inicio


Clustering de gas por media consumida en cada contador por comunidad

En este caso vamos a calcular el promedio consumido por cada contador en cada comunidad, dividiendo el consumo por la columna GAS ACCOUNTS.

Dividimos el consumo de gas por el número de contadores.

Y posteriormente calculamos el promedio para cada comunidad.

Aplicamos clustering con KMeans.

Con k=4 tenemos la división óptima.

¿Qué comunidades hay en cada clúster?

Separación por cuartiles

Vamos a separar las muestras muy alejadas del valor medio mediante la eliminación de outliers. Dividiremos en 3 porciones: los que están muy por abajo de la media, en mean_q1; los que están muy por encima de la media, en mean_q4; y los que se encuentran sobre la media, en mean_qm. Con este tratamiento previo trataremos de encontrar de mejor modo patrones dentro de cada grupo.

Aplicamos clustering a los valores en mean_qm.

Visualizamos mean_q1.

Visualizamos mean_q4.

Volver al inicio


Clustering por edad del edificio

En este caso vamos a buscar patrones según la edad promedio de los edificios de cada comunidad.

El rango de edad promedio es:

Energía

Aplicamos clustering a las muestras de consumo de electricidad.

Gas

Aplicamos clustering a las muestras de consumo de gas.

Volver al inicio


Clustering por dimensión del hogar

En este caso vamos a buscar patrones según la dimensión del hogar (número de personas entre número de casas). En este caso, solo se seleccionarán las zonas residenciales.

Energia

Aplicamos clustering a las muestras de consumo de electricidad.

Gas

Aplicamos clustering a las muestras de consumo de gas.

Volver al inicio


Clustering por ocupación total

En este capo se buscarán patrones según el porcentaje de ocupación para las zonas residenciales.

Energía

Seleccionamos las muestras de consumo de electricidad para las zonas residenciales y aplicamos clustering.

Gas

Seleccionamos las muestras de consumo de gas para las zonas residenciales y aplicamos clustering.

Volver al inicio


Clustering por porcentaje de casas en renta

En este caso, se seleccionará el porcentaje de casas en alquiler criterio de comparación.

Energía

Seleccionamos las muestras de consumo de electricidad para las zonas residenciales y aplicamos clustering.

Gas

Seleccionamos las muestras de consumo de gas para las zonas residenciales y aplicamos clustering.

Volver al inicio